西湖大学 强化学习01 基本概念On this page01 基本概念01 基本概念 这堂课基本上就是对概念的梳理。 部分基本概念 trajectory(轨迹):state-action-reward链条 return:轨迹得到的所有奖励之和,可以是无限的 discount rate:折扣因子 discounted return:折扣回报 discounted return=r1+γ∗r2+γ2∗r3+...discounted~return = r_1 + \gamma * r_2 + \gamma^2 * r_3 + ...discounted return=r1+γ∗r2+γ2∗r3+... episode(回合/片段):智能体从开始到结束的轨迹 episodic task:通常认为是有限的任务 continuing task:无限任务